[レポート] Accelerate data transfer to the cloud with AWS Data Transfer Terminal #NET217 #AWSreInvent
はじめに
こんにちは、リテールアプリ共創部の塚本です。
AWS re:Invent 2024で行われた『Accelerate data transfer to the cloud with AWS Data Transfer Terminal』に参加しましたので、そのレポートをお届けします。
セッション情報
- セッションID: NET217
- タイトル: Accelerate data transfer to the cloud with AWS Data Transfer Terminal
- スピーカー:
- Gaurav Mudgal(Senior Manager Internet Edge Engineering, AWS)
- Camden Forgia(Principal Product Manager Tech, Amazon Web Services)
- レベル: 200
セッション概要
Transferring large datasets to the cloud poses challenges and can result in prolonged timelines and compromised data quality. This issue is relevant for use cases that generate large datasets, such as advanced driver assistance systems (ADAS), high-resolution video production, and industrial sensory monitoring data. Explore the secure, upload-ready physical locations of AWS Data Transfer Terminal, where you can connect your storage devices to the AWS backbone and initiate uploads to various AWS endpoints including Amazon S3 and Amazon EFS at speeds up to 400 Gbps. Get data into AWS quicker and improve time to market.
日本語
大規模なデータセットをクラウドに転送する際には課題が生じ、転送時間の長期化やデータ品質の低下を招く可能性があります。この問題は、先進運転支援システム(ADAS)、高解像度の動画制作、産業用センサーモニタリングデータなど、大規模なデータセットを生成するユースケースに関連しています。AWS Data Transfer Terminalの安全でアップロード可能な物理的な場所では、ストレージデバイスをAWSのバックボーンに接続し、最大400Gbpsの速度でAmazon S3やAmazon EFSなど、様々なAWSエンドポイントへのアップロードを開始することができます。より迅速にAWSにデータを取り込み、市場投入までの時間を短縮することができます
先日発表された AWS Data Transfer Terminals という新サービスの概要・ユースケース・実際の使用方法を詳細に説明するセッションでした。
以下弊社ブログでも、先日AWSブログで発表された内容がまとめられています。
学んだこと
- 従来のデータアップロードでは地理的な問題やパフォーマンスの問題があった。
- AWS Data Transfer Terminalsは用意された施設でクラウド環境への高速なデータアップロードを行えるサービスである。
- 主な利点として、高速なデータ取り込み、オンデマンドでの課金、地理的にアクセスしやすい施設などがある。
セッション内容
データサイクルの概要
- データサイクルは、データの取り込みから保存、そして洞察を得るためのAnalytics、洞察に対するActionがある。
- AWS Data Transfer Terminalsはデータサイクルの始まりである、「データの作成」と「取り込み」という2つの領域に関連しているサービスである。
現状の物理デバイス大量データからクラウドへのデータ送信の問題点
- さまざまな場所・方法で作成される「データの多様性」が苦痛のポイントである。
- データセンター内、クラウド内、あるいはクラウドやデータセンターにネイティブに存在するアプリケーション内でデータは作成され、さらにそのデータはクラウドと接続してやり取りされる必要がある。
- 物理的な世界のデータはさらに異なっている。
- 個別のデバイスに保存されるデータなどである。(これは例えば自動車システムが収集しているような大規模なデータのこと)
- このようなデータはそれぞれのデバイスにつきテラバイト単位のデータを保持しており、クラウドに送る際に考慮すべき事項が出てくる。
- 同じようなデータとして、メディアエンターテイメント制作のワークロードがある。
- 制作現場は異なる大都市や環境に置かれることが多く、コンテンツを生成する。カメラは1日あたりテラバイト単位のデータを生成しますが、クラウドにデータをアップロードする選択肢から遠く離れているため、容易な方法がない可能性がある。
現状のサービスでは対応できないケースがある
- データを保存するのに、どのような方法があるか?以下のような方法がある。
- 最も一般的なものはインターネット経由。
- この方法は一般的で柔軟性が高いが、速度や信頼性の面で問題がある。
- パフォーマンス予測も難しい。
- 次に、ミッションクリティカルなワークロードでは AWS Direct Connectを利用したデータ移行が利用ある。
- AWS Direct Connectは利用できる場所が特定の場所に限られているため、先ほどの各デバイスで大量のデータを保持しているような場合は利用が難しい。
- 最も一般的なものはインターネット経由。
AWS Data Transfer Terminal の概要
- AWS Data Transfer Terminalは、245の国や地域にまたがるAWSのグローバルインフラを利用する。これは実質的に、全ての主要都市に存在している。
- これらのネットワークは、テラバイト単位の容量を持つ5000以上の外部ネットワークに接続されている。
- 「コロケーションのセキュアな施設で、AWSのネットワークに直接アクセスし、データを高速に転送する。」というのがAWS Data Transfer Terminalの概要である。
- これらの施設は顧客のニーズに合わせて予約のできる物理的なロケーションである。オンデマンドで利用できるため、長期間の利用は必要ない。
- ストレージデバイスは顧客が用意し、自身で管理する。デバイスを施設に持ち込み、AWSネットワークに直接接続する。
- 2024/12/01にローンチされ、現在はロサンゼルスとニューヨークで利用ができる。
- まもなくアトランタ、ダラス、シアトル、サンフランシスコ、そしてヨーロッパのミュンヘンでも利用可能になる。
- 今後、米国ではシカゴ、アイルランドではダブリン、英国ではロンドン、インドではムンバイ、日本では東京、そしてオーストラリアではシドニーで時間をかけて利用可能になる予定。
AWS Data Transfer Terminalの利用フロー
- 予約システムの基本フロー
- 予約作成・確認後、データセンターとオペレーターに通知
- オペレーターは施設アクセス方法や手順の情報を受領
- 現場でデータ転送端末に直接アクセス可能
- サービスの主要機能
- チーム管理機能
- ワークフロー/ミッション別にチーム作成可能
- チームメンバーの管理(人員追加、訪問者情報等)
- 予約管理機能
- 施設/場所の確認と選択
- スイートの利用可能状況確認
- チームメンバーの割り当て
- 予約時間の設定
- チーム管理機能
以下のブログで実際のマネジメントコンソールでの操作が紹介されている。
施設への持ち物
- AWS Data Transfer Terminalの施設には、以下のようなものを持っていく必要がある。
- 政府発行の身分証明書
- ストレージアプライアンス
- 周辺機器(ポータブルモニター、キーボード、マウス)
- 100Gベース LR 4芯光ファイバーケーブル
- なぜ周辺機器や光ファイバーケーブルを持参する必要があるのか?
- それは、顧客のデータストレージをAWSネットワークに直接接続できる光ファイバーケーブル以外に触れさせないためである。
- 検証段階での実際の施設は、非常にシンプルなものである。(以下画像)
施設での作業方法
- 以下のような手順で作業を行う。
- 事前準備
- データ転送ページへのアクセス
- スループット最適化のためのドキュメント確認
- 設定ガイドラインの確認
- 最適化のためのドキュメント内容
- ストレージのコンプライアンス設定
- 必要なクライアントのインストール情報
- クライアント設定の最適化方法
- スループット向上のためのプロ向けヒント
- 物理的な接続手順
- 光ファイバーケーブルとストレージの接続
- 100ギガビットLR光ファイバーでの接続確認
- ネットワーク設定
- DHCPとDNSの有効化を確認
- パブリックIPアドレスの割り当て確認
- ストレージエンドポイントへのアクセス確認
- 転送開始手順
- ストレージエンドポイント(例:S3)への認証
- 認証情報の入力
- データ転送の開始
- 事前準備
- 顧客は高速なデータ転送が可能だが、転送に利用できる時間は限られているので、ストレージのコンプライアンスに関して考慮すべき設定、インストール可能な特定のクライアント、それらのクライアントで役立つその他の設定についてまとめられた文書を確認して、データ転送を行う。
AWS Data Transfer Terminal のさまざまな利点
- データアップロードの速度と安定性で利点がある。
- 「完全な制御」という点で利点がある。
- ストレージデバイスは顧客の管理、その輸送も顧客の管理である。
- 物流や転送を他の会社に任せる必要がなくなる。
- 利用したデバイスはそのまま持ち帰り、引き続き利用ができる。
- データの品質でも利点がある。
- 元々2週間おきにデータを収集していたデバイスで、1日おきに収集する運用ができるようになる。
- 収集のたびに品質を確認し検証することで、現場のオペレーターに更なるデータの収集を指示できるようになる。
- データの収集から分析までのライフサイクルが早まることで、品質を向上させることができる。
おわりに
データ転送の今までの問題点と新サービスの利点について深く学ぶことができました。
普段携わることの少ない分野なのですが、今までのデータ転送方法と併せて勉強になるセッションでした。
大規模データの転送に関わっていて、現在Snowball, DirectConnectを利用しているチームには非常に有益なセッションだと思います。
ぜひ公開されたら聞いてみてください。
参考資料